Semiautomatische Konstruktion von Trainingsdaten für die Suche in historischen Dokumenten
نویسندگان
چکیده
Für Retrieval in historischen Dokumenten wird eine Abbildung der Suchbegriffe auf die historischen Varianten in den Dokumenten benötigt. Für diese Abbildung wurde ein regelbasierter Ansatz entwickelt. Der Engpass dieses Ansatzes ist die Konstruktion der Trainingsdaten. Dabei muss ein Experte manuell den historischen Formen, die dem Spellchecker unbekannt sind, die aktuelle moderne Form zuordnen. Zur Verbesserung dieses Verfahrens werden nun die Vorschläge des Spellcheckers betrachtet. Aus jedem Vorschlag und dem zugehörigen unbekannten Wort wird ein Beleg gebildet. Aus diesen Belegen werden nun wie gewohnt Regeln generiert und die häufigsten Regeln akzeptiert. Experimentelle Ergebnisse basierend auf der bisherigen Belegkollektion zeigen, dass ein großer Teil der Regeln auf diese Weise generiert werden kann. Dadurch können die Trainingsdaten deutlich schneller und mit geringerem manuellem Aufwand erzeugt werden.
منابع مشابه
Entwicklung einer Benutzeroberfläche zur interaktiven Regelgenerierung für die Suche in historischen Dokumenten
Retrieval in historic documents with non-standard spelling requires a mapping from search terms onto the terms in the document. For describing this mapping, a rule-based approach has been developed. The RuleGenerator user interface enables the user to create evidences automatically and hence to generate and edit rules. With an eyetracker-based user evaluation the usability of this tool has been...
متن کاملNutzenpotentiale von RFID-Technologien in Anwaltskanzleien
Obgleich die Verbreitung von RFID in vielen Bereichen der Wirtschaft bereits heute erfolgt ist, hat sich der Einsatz in Anwaltskanzleien bis heute kaum etabliert. Vor dem Hintergrund akuter Probleme im Rahmen der Identifizierung, Verfolgung und Verwaltung von Dokumenten kann diese Technologie in Kanzleien jedoch eine gezielte Verbesserung verschiedener Teilprozesse im Bearbeitungsablauf eines R...
متن کاملMaschinelle Übersetzung für historische Sprachen
Der Workshop ”Maschinelle Übersetzung für historische Sprachen” hat am 13. Mai an der Universidad Politèchnica de Catalunya in Barcelona stattgefunden. Er war als begleitendes Ereignis zur europäischen Konferenz über Maschinelle Übersetzung (EAMT09) organisiert. Der Zusammenhang zwischen den beiden Ereignissen war nicht nur der Begriff ”Maschinelle Übersetzung”, sondern auch die Thematik der Ha...
متن کاملPerspektiven der inhaltsbasierten Suche: strukturierte Dokumente, Einbeziehung des Kontextes, Peer-to-Peer
Information Retrieval beschäftigt sich mit der Suche nach Dokumenten, die einer Person in einer gegebenen Situation nützlich sein könnten. Historisch hat dabei lange die Suche nach flachen (d.h. unstrukturierten) Textdokumenten im Vordergrund gestanden. Der Vortrag betrachtet nun drei aktuelle Forschungslinien zur inhaltsbasierten Suche im Information Retrieval: Zunächst ist dabei die Suche in ...
متن کاملDynamische Menüs zur Recherche und Orientierung. Konzeption der thematischen Suche für den Informationsservice "WebSite 'Methodik"
Das Konzept einer themenorientierten Suche wird vorgestellt, das gleichzeitig das Ziel verfolgt, dem Nutzer Orientierung über die inhaltliche Ausgestaltung eines Informationsbestandes zu geben. Es wurde für WebSite `Methodik entwickelt, einen WWW-Server für Distance Learning in dual mode, und ist übertragbar auf Dokumentensammlungen mittlerer Größe, die begriffsorientiert indexiert sind. Nutzer...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2010